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摘 要 ; [目的 /意义 ] 针对 目前 自动 问答 系统 在 语义 扩展 方面 存在 的 缺陷 ,提出 一 种 基于 词 向 量 的 语义 扩展 技术 ,设计 并 
实现 一 个 图 书馆 的 智能 咨询 系统 。 [ 方法 过程] 使 用 基于 Word2vec 词 向 量 语义 扩展 技术 结合 中 文 分 词 、 共 现 词 
匹配 技术 设计 智能 问答 引擎 ,结合 协同 办 公 的 管理 理念 ,实现 图 书馆 智能 咨询 系统 的 构建 ,并 对 系统 的 运行 数据 
进行 统计 分 析 。[ 结果 /结论 ] 该 系统 在 工作 时 间 、 咨 询 效果 和 后 台 管 理 上 较 好 地 满足 设计 需求 ,为 图 书馆 智能 化 


信息 咨询 系统 建设 提供 参考 。 
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为 了 更 好 地 为 用 户 提供 信息 咨询 服务 ,图 书馆 为 
提供 了 基于 网 络 的 多 种 服务 方式 ,如 虚拟 咨询 系 
统 \ 自 动 问答 系统 等 ,因为 语义 扩展 方面 的 缺陷 ,导致 
全 好 咨询 的 效果 不 佳 。 随 着 人 工 智能 自然 语言 处 理 技 
术 只 的 词 向 量 技术 的 发 展 ,为 图 书馆 智能 咨询 系统 的 
设 评 和 构建 提供 了 新 的 思路 。 本 文通 过 对 基于 
Wpvec 词 向 量 语义 扩展 的 智能 咨询 系统 的 构建 ,以 
及 组 统 运行 使 用 的 分 析 ,为 国内 图 书馆 智能 咨询 系统 
的 建设 提供 参考 。 

2 研究 综述 

随 着 数字 化 技术 和 网 络 技术 的 应 用 ,作为 图 书馆 
核心 价值 的 信息 咨询 服务 也 有 了 跨越 性 的 发 展 , 伟 
统 的 面对面 的 咨询 模式 ,逐渐 被 网 络 数字 参考 咨询 所 
取代 "。 在 咨询 服务 应 答 模 式 方面 ,早期 的 数字 咨询 


馆 ” .西安 交通 大 学 图 书馆 “等 ,先后 使 用 不 同 的 平台 
和 技术 构建 了 各 自 的 自动 问答 系统 。 但 大 多 数 的 系统 
还 处 于 改进 和 测试 阶段 ,很 少 能 够 进入 到 图 书馆 的 真 
实 场景 中 应 用 。 

图 书馆 智能 信息 咨询 系统 的 基本 流程 是 在 接受 到 
用 户 提出 的 问题 时 ,首先 分 析 用 户 所 提出 的 问题 ,抽取 
其 中 关键 词 , 然 后 在 已 有 的 语料库 或 者 知识 库 中 进行 
检索 .匹配 ,将 获取 的 答案 反馈 给 用 户 的 过 程 。 早 期 的 
自动 问答 系统 中 应 用 了 基于 关键 词 的 检索 模式 ,包括 
问题 分 析 ,关键 词 提取 信息 检索 ,答案 验证 等 过 程 ”。 
采用 的 是 关键 词 直接 与 答案 的 匹配 的 模式 ,而 在 实际 
的 应 用 中 ,由 于 中 文 的 语义 往往 可 以 用 多 个 中 文 文本 
或 字 串 来 表示 ,而 数据 库 中 的 数据 和 关键 词 又 是 以 独 
立 的 形式 存在 ,没有 相互 的 关联 。 所 以 这 种 基于 单一 
关键 词 匹配 的 模式 由 于 缺乏 对 自然 语言 的 同义词 语义 
的 扩展 能 力 , 导 致 自动 问答 的 答案 匹配 率 很 低 。 此 后 
的 研究 发 现在 检索 过 程 中 ,利用 基于 同义词 典 比 对 的 


使 用 实时 交流 工具 以 人 工 方式 开展 咨询 服务 ,如 视频 
会 议 软件 .Twitter 或 Facebook 等 ”。 随 着 人 工 智能 技 
术 的 快速 发 展 ,智能 化 信息 咨询 系统 的 应 用 在 图 书馆 
界 逐 渐 兴 起 。 在 国外 ,汉堡 大 学 图 书馆 最 早 使 用 智能 
问答 系统 ,试图 解决 传统 的 人 工 服务 应 答 效 率 低 、 响 应 
缓慢 的 问题 。 在 国内 ,清华 大 学 图 书馆 ”、 上 海 交通 大 
学 图 书馆 .南京 大 学 图 书馆 “北京 工商 大 学 图 书 


语义 扩展 模式 ,能够 有 效 提高 中 文 检索 的 答案 匹配 率 。 
即 通过 将 问题 关键 词 和 同义词 典 中 的 词 比 对 ,提取 出 
相关 词 的 语义 扩展 方式 。 随 后 又 有 学 者 尝试 应 用 诸如 
知识 本 体 与 关联 数据 "" 和 知识 图 谱 等 知识 组 织 模式 ， 
对 数据 库 的 数据 进行 关联 优化 ,为 信息 检索 提供 基于 
语义 的 理解 机 制 "，。 这 些 方式 的 问题 是 建设 和 维护 
非常 复杂 ,在 数据 库 较 大 的 情况 下 运行 的 效率 较 低 。 
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随 着 自然 语言 处 理 中 的 词 向 量 技术 的 发 展 ,为 语 
义 扩展 提供 了 较 好 的 解决 方法 。 词 向 量 技术 是 为 了 使 
用 数学 模型 来 表示 自然 语言 的 词 和 其 相对 应 的 向 量 ， 
并 且 量 化 和 分 类 语言 项 之 间 的 语义 相似 性 而 发 明 的 ， 
先后 出 现 了 n-gram 、 神 经 网 络 、Word2vec 等 基于 统计 的 
自然 语言 词 向 量 模型 ,它们 的 特点 是 通过 对 语 料 的 训 
练 ,能 够 不 断 优 化 匹配 效果 ,目前 广泛 应 用 于 语义 相似 
度 计算 ,机 器 翻译 文本 匹配 ”等 自然 语言 处 理 方面 。 


3 基于 Word2vec 词 向 量 语义 扩展 


智能 问答 系统 的 主要 难点 在 于 实现 准确 识别 用 户 
咨询 的 问题 并 返回 合适 的 答案 ,对 从 问题 中 抽取 出 的 
关键 词 进行 语义 扩展 ,是 提高 答案 匹配 效果 的 关键 。 
基于 Word2vec 的 词 癌 量 语义 扩展 技术 可 以 很 好 地 解 
决 这 个 问题 。Word2vee 的 核心 思想 是 通过 词 的 上 下 
文 得 到 词 的 向 量化 表示 ,利用 训练 样本 进行 训练 与 学 
东 将 语句 中 的 词语 喘 射 成 多 维 的 词 向 量 ,通过 向 量 之 
间 机 距离 来 判断 词语 之 间 的 相似 程度 。 它 的 优势 是 不 
需 林 对 样本 数据 进行 复杂 处 理 ,就 可 以 直接 进行 词 向 
再 练 。 基 于 这 样 的 特点 ,可 以 方便 将 图 书馆 信息 次 
谢 腿 务 中 累计 的 有 效 问 答 都 添加 为 训练 样本 ,通过 持 
线 天 向 量 训练 提升 词 向 量 的 准确 性 ,而 不 需要 人 工 干 
基于 Word2vec 词 向 量 语义 扩展 的 过 程 首先 是 对 


使 用 的 梳理 和 经 验 总 结 。 
4.1 图 书馆 智能 咨询 系统 的 需求 分 析 

东南 大 学 图 书馆 在 信息 服务 的 网 络 化 和 智能 化 工 
作 中 ,先后 使 用 了 虚拟 咨询 .qq 以 及 自动 问答 机 器 人 
等 系统 和 工具 ,在 应 用 过 程 中 发 现 一 些 需 要 解决 的 问 
题 :四 基于 关键 词 检索 的 问答 机 器 人 系统 对 问题 语义 
扩展 能 力 的 欠缺 ,导致 咨询 答案 不 准确 。 思 基于 人 工 
的 信息 咨询 服务 在 服务 时 间 上 不 能 满足 读者 的 需求 。 
@ 重 复 的 事务 性 问题 占 咨询 问题 的 比重 很 大 ,如 馆 售 
位 置 .服务 条 款 、 工 作 时 间 等 问题 ,导致 咨询 馆 员 工作 
量 过 大 。 了 图 书馆 用 户 专 业 性 的 咨询 内 容 需 要 多 部 门 
合作 来 解答 ,需要 便捷 的 内 部 协同 处 理工 作 模式 ”来 
提高 应 答 的 准确 性 和 时 效 性 。 基 于 以 上 问题 ,东南 大 
学 图 书馆 智能 咨询 系统 功能 需求 主要 归纳 为 以 下 两 方 
面 : 
4.1.1 用 户 咨询 需求 

智能 咨询 系统 是 以 微 信 端 、 网 页 端 等 多 终端 展现 
方式 ,24 小 时 为 在 校 师 生 提 供 图 书馆 信息 咨询 \ 馆 藏 
区 目 检索 等 服务 。 系 统 支 持 用 户 以 自然 语言 .关键 词 
等 方式 进行 咨询 提问 。 基 于 Word2vec 词 向 量 语义 扩 
展 , 结 合 中 文 分 词 . 共 现 词 答案 匹配 等 技术 实现 智能 问 
答 引 擎 ,分 析 用 户 的 提问 ,给 出 关联 推荐 问题 答案 。 在 
智能 问答 引擎 无 法 回答 师 生 问题 时 ,提供 人 工 服务 对 
接 。 对 于 未 解答 的 用 户 问 题 ,管理 人 员 在 后 台 回 答 并 


样 不 库 进行 词 向 量 的 训练 ,获得 词 向 量 表 。 然 后 利用 
宗 弦 值 ,从 而 判断 他 们 之 间 的 相似 度 。 在 获得 查询 


学 马 训 练 过 后 的 词 向 量 表 , 找 到 查询 词 与 扩展 词 之 间 
的 从 


结 桶 后 ,设置 一 定 的 阔 值 , 若 大 于 设置 的 阔 值 判断 为 相 
似 思 ,将 此 词 作为 查询 词 的 扩展 词 , 放 入 扩展 后 的 词 集 
中 ,为 后 续 的 问答 匹配 做 准备 。 

本 文 在 智能 咨询 系统 中 应 用 Word2vec 词 向 量 
术 结合 中 文 分 词 共 现 词 匹配 等 技术 设计 实现 智能 问 
答 引擎 ,以 解决 目前 自动 问答 系统 的 语义 扩展 方面 的 
缺陷 ,提高 图 书馆 信息 咨询 系统 的 使 用 效果 。 据 调查 ， 
目前 国内 尚未 发 表 过 应 用 该 技术 构建 图 书馆 智能 咨询 
系统 的 相关 研究 。 


4 系统 设计 和 相关 技术 


东南 大 学 图 书馆 根据 智能 咨询 系统 的 需求 .整体 
业务 流程 .总 体 技术 架构 ,进行 了 基于 Word2vec 的 智 
能 咨询 引擎 与 维护 管理 平台 的 设计 。 笔 者 作为 该 项 目 
负责 人 ,全 程 参 与 了 系统 的 需求 架构、 设计、 测试 和 运 
行 维护 工作 。 本 文 是 对 此 项 目的 相关 技术 应 用 和 系统 


提交 至 智能 咨询 系统 后 ,支持 对 问题 的 推送 功能 。 
4.1.2 后 台 管 理 需 求 

对 于 后 台 系 统 的 操作 人 员 ,提供 基于 协同 工作 的 
分 级 分 角色 的 管理 功能 ,不 同 的 权限 提供 不 同 后 台 操 
作 功 能 。 如 学 科 馆 员 ,学 生 馆 员 ,问答 知识 库 管理 员 以 
及 运 维 人 员 等 。 支 持 根据 不 同 维度 进行 相关 数据 的 统 
计 分 析 ,并 根据 用 户 需求 制作 统计 报表 ,进行 可 视 化 展 
示 。 拥 有 操作 权限 的 管理 员 可 对 知识 库 进 行 添加 , 修 
改 新 的 问题 答案 ,支持 单条 或 者 批量 进行 数据 更 新 操 
作 ,并 同步 到 相关 数据 库 。 
4.2 图 书馆 智能 咨询 系统 的 业务 流程 

图 书馆 智能 咨询 系统 (以 下 简称 “本 系统 ”) 的 业 
务 流程 是 :用 户 通过 系统 发 送 咨询 问题 以 后 ,系统 通过 
智能 问答 引擎 对 问题 进行 相关 处 理 和 问答 的 检索 ,如 
果 已 有 答案 则 返回 用 户 , 如 果 没 有 匹配 答案 则 可 转 为 
人 工 服务 交 由 后 台 的 维护 和 管理 平台 人 工 处 理 。 咨 询 
馆 员 通过 维护 和 管理 平台 完成 人 工 服 务 .协同 工作 和 
系统 管 的 工作 。 如 图 1 所 示 : 
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4.3 图 书馆 智能 咨询 系统 的 技术 架构 
一 图 书馆 智能 咨询 系统 的 架构 设计 ( 见 图 2) 采 用 了 
a ail ed 
供 的 服务 ,按照 功能 划分 为 数据 层 ` 业 务 逻 辑 层 ,应 用 


智能 咨询 系统 业务 整体 流程 


馆 其 他 业务 模块 的 数据 源 的 接 入 。 在 子 系统 的 内 部 采 
用 了 模块 化 设计 ,各 个 模块 相对 独立 ,可 根据 未 来 图 书 
馆 信 息 咨询 服务 的 需求 灵活 添加 ,如 电子 资源 的 检索 、 
查证 查 引 等 应 用 层 模 块 。 针 对 图 书馆 用 户 信息 获取 习 


子 系统 访问 接口 进行 交互 ,不 同 层次 的 子 系统 均 
提供 相应 的 接口 ,如 数据 层 除 了 对 智能 问答 的 业务 数 
据 风 的 存储 外 ,还 提供 了 多 种 数据 接口 ,便于 支持 图 书 


层 子 系统 与 上 下 层 的 子 系统 通过 特 


惯 ,系统 提供 了 基于 网 页 和 微 信 的 多 终端 的 服务 接口 ， 
同时 为 本 馆 将 要 引进 的 实体 机 器 人 的 接 入 预 留 了 
接口 。 


GN 

S 中 HU 
DR 
© 

三 
- 智能 问答 平台 
9 业务 层 


图 2 


4.4 基于 Word2vec 的 智能 问答 引擎 设计 

智能 问答 引擎 的 基本 技术 原理 是 对 语句 进行 预 处 
理 , 使 用 Word2vec 训练 词 向 量 ,利用 词 向 量 表 对 用 户 
问题 的 关键 词 进 行 语义 扩展 ,最 后 采取 基于 句子 共 现 
词 的 相似 度 计算 实现 答案 的 匹配 。 


智能 咨询 系统 整体 架构 


4.4.1 智能 问答 引擎 运行 流程 

智能 问答 引擎 的 运行 流程 如 图 3 所 示 : 当 问答 引 
擎 接受 到 用 户 所 提出 的 问 句 时 ,首先 依据 中 文 词典 和 
停 用 词典 将 用 户 的 问 句 进行 分 词 、 停 用 词 去 除 等 预 处 
理 , 便 得 到 经 过 处 理 的 候选 词 词组 。 其 次 ,将 获取 的 候 
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选 词 词组 与 训练 完成 后 的 词 向 量 库 进 行 比较 ,取出 与 
地 征 词组 相似 度 高 的 若干 个 词 作为 语义 扩展 后 的 特征 
词组 。 最 后 ,使 用 扩展 后 的 特征 词组 与 已 构建 的 问答 


04.00094v1 


4, 济 2 ”语句 预 处 理 
CD 语句 预 处 理 包 括 对 中 文 进行 分 词 和 对 停 用 词 进 行 
进 泪 。 对 停 用 词 的 过 滤 采 用 与 停 用 词 库 进 行 比 对 的 方 
二 JU 在 这 之 前 ,首先 需要 进行 中 文 分 词 处 理 ,将 用 户 的 
问 公转 为 有 效 的 词 的 表示 。 本 系统 应 用 了 基于 词 与 分 
词 酌 最 大 匹配 分 词 算法 。 最 大 匹配 分 词 的 扩展 主要 有 
正 粳 最 大 匹配 和 逆向 最 大 匹配 两 种 算法 。 经 过 比 
较 盆 析 ,由 于 英文 单词 间 是 以 空格 来 进行 分 隔 的 ,所 以 
使 晨 正 向 最 大 匹配 算法 对 英文 进行 分 词 的 效率 和 词 表 
命 贸 的 准确 率 较 高 。 由 于 中 文 词汇 结构 复杂 ,使 用 逆 
向 最 大 匹配 算法 会 更 加 准确 ,因此 本 系统 中 选择 逆向 
最 大 匹配 算法 ( 见 图 4) 。 

逆向 最 大 匹配 算法 在 智能 咨询 引擎 中 进行 分 词 的 
过 程 为 : 当 待 分 语句 为 S1 时 ,首先 设 定 最 大 切 词 词 长 
“MaxLen 值 ”为 m,m 的 设 定 为 分 词 词典 中 有 效 词 的 最 
大 长 度 ,从 右 向 左 取 待 分 语句 S1 中 的 m 个 字 作 为 候选 
字 串 记 为 “W”, 查找 已 有 词典 对 “W” 进行 匹 配 。 如 果 
匹配 成 功 , 则 将 该 字 串 作为 一 个 词 输出 到 分 词 结果 集 
“S2" 中 。 如 果 匹 配 不 成 功 , 则 将 该 字段 最 右边 的 一 个 
字 去 掉 , 将 剩余 的 字 作为 新 字 串 重新 进行 匹配 ,直到 所 
有 词 都 切 分 完成 ,最 后 输出 分 词 结果 集 “S2” 。 
4.4.3 基于 Word2vec 的 词 向 量 训练 和 语义 扩展 

训练 样本 库 首先 要 对 词 向 量 的 训练 模型 进行 选 
择 ,Word2vec 主要 有 两 种 训练 模型 即 连续 词 袋 模型 


知识 库 中 问题 进行 基于 句子 共 现 词 相 似 度 的 匹配 。 选 


择 匹 配 值 最 高 的 答案 返回 给 用 户 ,而 对 于 无 匹配 答案 
则 提供 人 工 服务 。 


柑 于 词 向 量 的 语义 扩展 


答案 相似 度 匹 


待 切 分 字 串 S1 
输出 词 囊 ”5S2=" 
最 大 词 长 ”MaxLen 


始 
化 


Y 
1 输出 结果 S2 


N 


9 右 侧 玫 


vy 
将 WW 最 右边 的 一 
个 字 去 除 


4 逆向 最 大 匹配 算法 


(CBOW) 和 跳 字 模型 (Skip-gram)” 。CBOW 模型 是 
根据 周围 词 预测 中 心 词 ,再 根据 中 心 词 的 预测 结果 情 
况 ,利用 CradientDesent 方法 调整 周围 词 的 向 量 , 从 而 
获得 整个 文本 里 面 所 有 词 的 词 向 量 。 而 Skip-gram 模 
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型 则 是 根据 中 心 词 来 预测 周围 词 ,使 用 周围 词 的 预测 
情况 来 调整 中 心 词 的 词 向 量 ,需要 文本 中 所 有 的 字 进 
行 处 理 。 从 训练 模式 可 以 看 出 CBOW 的 训练 效率 更 
高 ,但 在 语义 分 析 方 面 的 准确 率 不 如 Skip-gram 模 
型 。 以 “如 何 能 借 图 书馆 的 书 " 这 句 话 的 三 元 词 
组 为 例 ,按照 词 顺序 连续 训练 的 方式 只 能 得 到 4 个 三 
元 词组 “如 何 能 借 ” 能 借 图 书馆 ”“ 借 图 书馆 的 ”图 
书馆 的 书 ”, 这 句 话 本 身 表 达 的 意思 是 “如 何 借 书 ”, 但 
是 这 4 个 三 元 词组 都 没有 准确 的 表达 出 来 句子 的 意 
思 , 而 使 用 Skip-Gram 模型 允 其 跳 字 , 即 可 以 使 用 不 相 
邻 词组 成 多 个 三 元 词组 ,如 表 1 所 示 : 

表 1 Skip-Gram 训练 词 集 示例 


Skip-Gram 训练 


下 靖 何 能 借 “ 如 何 能 图 书馆 ”如何 能 的 “如 何 能 书 "“ 能 借 图 书馆 ” 
2 邯 借 的 “能 借 书 “ 借 图 书馆 的 “ 借 图 书馆 书 "“ 借 的 书 "“ 图 书馆 的 

语 “ 如何 借 图 书馆 “如 何 借 的 “如 何 借 书 能 借 图 书馆 能 借 的 ” 
些 书 “图 书馆 的 书 ” 


已 由 表 1 可 以 看 出 , 当 使 用 Skip-Gram 模型 进行 语 料 
训 芭 的 时 候 , 能 够 覆盖 到 全 部 的 语义 组 合 ,实际 要 表达 
义 * 如 何 借 书 "正在 其 中 , 词 向 量 也 更 加 能 够 反映 
各 县 正 的 文本 语义 。 因此 Skip-gram 模型 更 加 适合 于 
证 交 分 析 , 所 以 在 本 系统 中 选择 Skip-Gram 模型 为 词 
所 调 的 训练 模型 。Skip-Gram 模型 的 词 向 量 训练 的 数 
学 次 式 可 以 表示 为 ; 

TP lv ) 公式 (1) 
GE 在 公式 (1) 中 必 表示 窗口 中 心 词 的 位 置 ,m 表示 
的 霆 滑动 窗口 的 大 小 。 在 实际 的 训练 中 ,以 “如 何 能 
储 < 图 书馆 的 书 "为 例 ,假设 计算 到 “ 借 " 这 个 词语 , 当 
设置 m 值 为 2 时 ,针对 “ 借 "这 个 词 ,需要 分 别 计算 在 
这 个 词 与 相 邻 的 前 两 个 和 后 两 个 词 的 概率 ,有 P( 如 何 
! 借 ) P( 能 1 借 ) P( 图 书馆 1 借 ) .P( 的 1 借 ) 。 由 此 可 


Fc 


计算 ,选择 相似 度 最 高 的 作为 匹配 问 句 ,再 从 FAQ 数 
据 库 中 根据 问 句 查询 相应 答案 并 返回 。 基 于 共 现 词 相 
似 度 匹配 算法 文 的 基本 原理 就 是 比较 的 两 个 语句 中 共 
现 词汇 的 数量 ,数量 越 多 则 代表 这 两 个 语句 的 相似 度 
也 越 高 。 相 似 度 计算 公式 可 以 表示 为 : 
{wilw, e SiNw, eS,|| 
log( 1S,1) +log( 15,|) 
公式 (2) 

公式 (2) 中 ,Si、5j 表示 需要 比较 的 两 个 句子 ,Wk 
表示 句子 中 的 词 ,分 子 表 示 同 时 出 现在 两 个 句子 中 的 
相同 词 的 个 数 。 分 母 取 对 数 ,是 为 了 抵消 长 度 相差 较 
大 句子 比较 时 对 计算 值 的 影响 。 
4.5 维护 和 管理 平台 设计 

维护 和 管理 平台 主要 包括 问答 管理 .系统 管理 、 数 
据 统计 和 知识 库 管 理 等 4 个 子 模块 。 问 答 管 理 流程 的 
设计 使 用 了 协同 办 公 的 理念 ,增加 了 问题 分 配 和 问答 
有 核 机 制 。 具 体 的 做 法 是 :由 值班 馆 员 根据 用 户 提 交 
问题 的 类 型 ,将 问题 分 配给 相关 部 门 的 值班 人 员 进 行 
回答 ,由 各 部 门 的 负责 人 员 审 核 后 对 读者 进行 回复 , 同 
时 更 新 知识 库 。 系 统管 理 模块 包括 用 户 管理 和 登陆 日 
志 管 理 两 部 分 ,用 户 管理 中 采用 分 级 角色 管理 :管理 
员 .学科 管理 员 .学科 馆 员 ,运营 维护 员 ,支持 不 同 级 别 
权限 用 户 的 查询 添加、 编辑 和 删除 等 操作 。 数 据 统计 
模块 是 对 智能 咨询 系统 运行 和 用 户 行 为 的 统计 和 展 
示 , 可 根据 不 同 维度 对 数据 进行 统计 分 析 和 可 视 化 展 
示 。 知 识 库 管 理 包括 对 新 知识 库 整 体 的 导入 与 导出 ， 
对 已 有 知识 库 的 语 料 的 添加 修改 和 删除 操作 。 为 保 
障 数据 安全 , 仅 限 学 科 管 理 员 能 够 对 语 料 进行 审核 入 
库 和 删除 等 操作 ,学 科 馆 员 只 能 进行 编辑 和 查看 语 料 
等 操作 。 


5 系统 实现 


| 
Similarity ( S, ,5,) = 


ba) 


以 看 出 ,如 果 滑 动 窗口 选择 太 大 或 过 小 都 会 影响 模型 
训练 的 效果 。 经 过 对 样本 库 的 测试 后 ,在 实际 训练 中 
将 滑动 窗口 值 设 定 为 4。 对 关键 词语 义 扩展 的 具体 做 
法 是 :在 训练 后 的 词 向 量 表 中 查询 与 关键 词 余弦 值 接 
近 的 词 ,将 比较 闵 值 设置 为 0.8, 耕 大 于 该 值 判 断 为 相 
似 词 ,将 此 词 作为 查询 词 的 扩展 词 。 在 实际 计算 中 发 
现 高 于 这 个 值 词 的 可 能 很 多 ,考虑 到 系统 计算 精度 , 选 
取 相似 度 最 高 的 前 3 个 词 为 当前 词 的 扩展 词 , 放 入 扩 
展 后 的 词 集中 ,为 后 续 的 问答 匹配 做 准备 。 
4.4.4 基于 共 现 词 相似 度 的 答案 匹配 

智能 咨询 引擎 在 答案 匹配 的 方法 是 :将 扩展 后 的 
词 集 与 知识 库 中 问题 的 问 句 进行 基于 共 现 词 的 相似 度 


根据 上 述 提出 的 系统 设计 与 算法 ,本 节 实 现 了 图 
书馆 智能 咨询 系统 。 该 系统 环境 配置 如 下 : 

编程 语言 :前端 页 面 使 用 vue + react ,核心 算法 用 
C++ 语言 。 

数据 库 :MYSQL 5.6。 

运行 环境 : 服务 髓 操作 系统 使 用 Windows2008 ， 
Web 服务 器 使 用 Tomcat 5.5。 
5.1 智能 问答 引擎 的 实现 
5.1.1 中 文 分 词 

通过 使 用 逆向 最 大 匹配 算法 将 引擎 获得 的 问 句 进 
行 中 文 分 词 处 理 , 系 统 选 用 jieba 分 词 词 库 和 自 建 的 图 


130 


张 乐 . 词 向 量 语义 扩展 技术 在 图 书馆 智和 


ChinaXiv 合 作 期 刊 


能 咨询 系统 的 应 用 与 实现 [J]. 图 书 情报 工作 ,2020 ,64(18 ) :126 -136. 


书馆 FAQ 分 词 词 库 ,输出 为 切 分 好 的 词 串 。 具 体 伪 代 


人 码 如 下 : 


Vector WordSegment( String sentence, Dict wordList) 


var maxLen = 7 // 最 大 词组 的 长 度 
var result // 输 出 词 吓 


var index = 0 


ey 


while (sentence. length( ) > 0)| 


var word = 


while(1)| /AL 内 循环 


sentence[ index : maxLen ] 


这 (wordList. find(word) ) | // 查 词典 ,看 word 是 否 在 词典 中 


result. append ( word ) 


index = index + word. length( ) // 有 
preak // 跳 出 内 循环 
| 


else | 


// word 不 在 词典 中 

并 (word. length( ) = = 1) | // 只 剩 一 个 
result. append ( word ) 

index = index + word. length() 


break // 跳 出 内 循环 


更 新 游标 


word = word. pop_back( ) ,// 去 掉 最 右 侧 一 


Glence = sentence[ index: ] // 将 匹配 到 的 词 从 sentence 左 侧 去 


SS 


IN 
a result // 返 民 [ wordl , word2 ，word3 ， 


5 停 用 词 过 这 


泪 


-] 


ne 了 分 词 后 得 到 的 词 串 ,通过 停 用 词 过 滤 
将 柔 需 要 的 词 去 除 ,输出 过 滤 后 的 有 效 词 串 。 
CO 停 用 词 表 使 用 百度 停 用 词 表 和 自 定 义 词 表 , 答 出 
为 切 分 后 的 词 弟 wordList。 具 体 伪 代 码 如 下 : 


Vector StopWordsFilter( Vector words, Dict stopWordList) 


Var result 
var index = 0 
while (index < words. length( ) ) | 


var word = words[ index] 


index + = 1 


内 


这 (stopWordList. find( word) ) | // 在 停 用 词 # 
continue // 跳 过 

| 

result. append( word) // 未 在 停 用 词典 内 


| 


retum result // 返 回 结 果 [ wordl ，word2 ，word3 ， 


5.1.3 基于 Word2vec 的 词 向 量 训练 


二 


系统 采用 python 的 gensim 为 训练 工具 ,使 用 东南 
大 学 图 书馆 常用 FAQ 知识 库 .图 书馆 设施 和 规章 知识 


库 为 训练 样本 。 关 键 参数 设置 为 : 
= FAQ. vec; -cbow =0( 训 | 练 


-train = trainfile ;-output 


模型 选择 :Skip-Cram ) ;-size = 200 (向 量 维度 );-window 


=4( 滑 动 窗口 ) 。 部 分 词 向 量 训练 结果 如 图 5 所 示 : 


图 谋 -0.080328904 -0.38751355 0.4338339 0.22465171 -0.7884939 -0.32396036 0.105: 
图 片 2.1176443 2.3692298 -0.36268267 -0.32863328 -2.9598074 -1.0689933 2.748145E 
图 片 社 0.21411207 0.586781 0.46677858 -1.4756463 0.024095818 0.73342806 0.25909, 
图 谱 0.822712 1.3480308 -1.842866 -0.20504187 -0.4646954 -0.41304004 -0.11278636 
图 示 0.95335937 0.10484978 -1.4966564 0.8941801 -1.0356681 0.37732416 0.7785243. 
图 式 0.088620126 0.041640364 0.007172336 0.014298022 -0.10763017 0.04662903 0.1 
图 书 -1.2392286 3.3644757 2.5200496 -0.15047817 -0.73181665 -2.043708 0.45445785 
图 书馆 -0.10228585 1.4506063 2.3656974 2.151757 3.0822504 -2.6789072 3.2704575 0 
图 书 室 -0.20917505 0.076000966 0.14207293 -0.1392632 0.04943845 -0.117100164 0.C 
图 说 -0.024342665 0.022511588 -0.04546367 -0.05530472 0.012335857 0.0079244515 
图 腾 0.70613045 0.06461371 2.377354 -1.1895387 0.55518717 2.5359783 -0.5834744 ( 
图 文 1.3509521 1.9034424 1.9373567 -1.7429898 -2.1877098 2.178882 0.6168056 -0.0t 
图 象 1.181109 0.32476628 -0.15417813 -0.08778427 -0.46677792 -0.2043813 0.35229( 
图 像 2.8962748 0.81774235 -1.2575828 -0.6568581 -0.837637 0.0426858 1.2458569 0.t 
图 形 5.9158764 0.84704036 -1.1898754 1.8543832 -4.638064 2.2729003 2.816778 -0.3! 
图 样 1.2262474 0.9116692 -0.19078358 -0.59467113 -0.61900425 0.7874932 -0.697355 
图 章 1.0161691 1.4710507 0.538855 0.19301178 -0.30157813 0.88103443 -0.29140043 
图 纸 1.5503052 2.0734816 0.28666842 1.7776623 -0.8467179 -0.15986298 0.10136588 


图 5 部 分 词 向 量 训练 结果 
训练 完成 后 ,以 “延期 "为 输入 词 ,通过 和 训练 过 
的 词 向 量 库 进 行 比较 计算 ,得 出 和 “延期 "相近 的 词 的 
集合 以 及 相似 度数 值 。 如 图 6 所 示 : 


国 要 关 词 查询 -Word2Vec ? x 
区 了 
序号 相似 词 相似 度 Lo 

1 延迟 0.6711298823 
2 推 0.6149213314 
3 延长 0.5876672863 
4 诞 期 0.5863224267 
5 拖延 0.5535641312 
6 延 泗 0.5383129115 
7 JE 0.5357496738 
8 暂 绥 0.5331852436 
9 超期 0.4997494816 
10 中 止 0.4969753623 
11 延 后 0.4713045954 v 
过 > 
6 “延期 "相似 词 计算 


5.1.4 基于 词 向 量 的 语义 扩展 

通过 训练 好 的 词 向 量 库 对 预 处 理 过 的 有 效 词 串 进 
行 语义 扩展 , 取 与 输入 词 相似 度 最 高 的 前 3 个 词 为 当 
前 词 的 扩展 词 ,具体 伪 代 码 如 下 : 
Vector WordFilter( Vector words, Model word2VecModel) 
Var 
Var 


result 


index = 0 


// 取 top3 词 向 量 的 扩展 
while (index < words. length( ) ) | 


var topn = 3 


var word = words[ index] 
index += 1 


Ww2v = word2VecModel. most_similar( word,topn) 


result. append( word) // 原 词 
1 /7 在 停 用 词典 内 


for (win w2v) 
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result. append(w) // 语 义 扩展 词 
| 
| 


retum result // 返 回 结 果 [ word1, word2, word3,...|] 


其 中 , 输入 : words 为 停 用 词 过 滤 后 的 词 ， 
word2VecModel 为 词 向 量 模型 。 输 出 :语义 扩展 后 的 词 
串 。 

5.1.5 基于 共 现 词 的 句子 相似 度 匹 配 
根据 相似 度 算法 ,进行 句子 的 相似 度 匹配 ,计算 输 
出 相似 度 值 ,具体 算法 伪 代 码 如 下 : 


double SentenceSimilarity( String senl ,String sen2 ) 


counter = 0 


if word in sen2 : 
counter + = 1 

double similarity = counter/ (log(len (sen1 ) ) + log(len(sen2) ) ) // 相 
似 度 计算 
return similarity 
5.2 ”用户 端 和 管理 端的 实现 

用 户 端 提供 了 网 页 版 和 微 信 版 服务 。 智 能 咨询 系 
统 支 持 两 种 类 型 的 用 户 使 用 , 即 匿名 咨询 和 认证 用 户 
咨询 ,其 中 认证 用 户 可 以 获得 人 工 服务 ,通过 微 信 端 提 
供 了 上 账户 绑 定 服务 ,只 需要 一 次 绑 定 微 信 号 和 用 户 的 学 
号 后 即 可 免 登陆 ,可 以 方便 地 留言 提问 ,得 到 人 工 回 复 。 
微 信 版 的 用 户 界 面 和 人 工 服务 交互 界面 如 图 7 所 示 : 


for word in senl : // 共 现 词 计算 
局 | 中 国联 通 二 18:49 念 了 69% 国 ] 十 中 国 可 动 人 17;55 人 35% mm 
本 X ”东南 大 学 图 书馆 智能 。 … 义 aaa 
四 间 县 
Cy 图 书馆 智能 咨询 系统 a 
= 图 书馆 智能 咨询 系统 ^ 今 A 
已 未 读 消息 。 ”未 处 理 问 肝 了》 。 全 部 问题 
CD 温 志 提示 ， 您 没有 未 章 看 过 的 消息 ! 
GN 
©O 
A 
.之 图 7 用户 界面 和 人 工 服务 交互 界面 


智能 分 析 和 管理 平台 为 图 书馆 相关 人 员 提 供 了 基 


ax 


于 加 页 端的 管理 界面 ,包括 问答 管理 、 站 点 数据 分 析 、 
- 智能 分 析 与 管理 平台 ey 
QO 。 油 ee 
地 志 分 析 开始 介意 2020-01-10 
访问 竺 分 析 六 止 时间 2020-01-10 
有 同 入 ze91 收 生 本 
i 短 窜 有 无 。 企 名 
i EE EC 
而 ”留言 回 经 近 计 
而 ”用 户 问题 分 类 
罩 mim 1 交 昭 休 阅 路 训 使 用 规则 
全 系统 管理 2 ”多 妊 休 闲 览 训 管 理 规 则 


图 8 


知识 库 管理 以 及 系统 管理 等 功能 。 整 体 实现 页 面 如 图 
8 所 示 : 


有 答案 比例 


无 区 宣 


级 后 一 次 访 间 BN 间 


2020-01-10 10.53.58 223 1044 37 


2020-01-10 10:53:35 223 104437 
2020-01-10 10:53.23 223 1044 .37 
2020-01-10 10.49.59 2233.88.59 
2020-01-10 10-36:48 11248.5207 
2020.01-10 10:36:37 112465207 


2020-01-10 10.36.03 112.48.5207 


202n0-01-1n 1035 .42 112 48 5 207 


分 析 和 管理 平台 界面 
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由 于 篇 幅 有 限 , 以 下 仅 根据 4.5 节 的 设计 展示 问 | 咨询 引擎 匹配 无 答案 后 ,学 科 馆 员 在 后 台 获 取 到 分 配 
答 管 理 中 的 人 工 服 务 以 及 人 库 操 作 的 不 同 角 色 馆 员 协 | 的 未 回答 问题 。 点 击 相关 问题 ,系统 跳 转 至 “在 线 留言 
同 工 作 的 流程 的 实现 。 处 理 ” ,对 问题 进行 回答 操作 。 如 图 9 所 示 : 

当 用 户 提交 问题 "学校 餐厅 对 外 开放 吗 ?” ,智能 


站 新 的 在 线 坊 声 塌 本 
| 7 po = ett EE wn ese 
[| 

3 市 术 Bi Ee 
日 间 血 碗 计 与 处 理 
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掌 校 督 厅 对 外 开放 呵 ? be 东 大 集团 2019-10-29 11.3325 外 @ 
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小 局 暑 文 三 复兴 本 职 孝 系 2019-10-29 09.32 .49 & [3 
间 。 才 二 记念 
7777 配 数 系 2019-10-28 19.2119 全 外 


图 9 人 工 服务 问答 编辑 操作 界面 


™ 

他 各 失 推 送 至 用 户 后 ,系统 将 问题 .答案 及 操作 馆 员 | 标准 的 执行 人 库 操作 ,不 符合 的 则 驳回 删除 ,如 图 10 
的 仿 息 推送 给 学 科 管理 员 , 并 进入 待 审 核 入 库 状态 。 ”所 示 : 

学 科 管 理 员 审核 确定 问答 是 否 达到 和 人 库 的 标准 ,符合 


页 上 同 敌 分 析 
8 gD 
间 中 开始 时 间 截止 时 间 2019-10-29 S 重 百 批量 市 模 
用 ”同等 实时 收集 


TT 
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CD 回答 竺 市 时 全 部 
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遇 问答 媒 针 与 处 理 


器 在 续 失 言 处 理 


了 人 生 闪 名 
:A Be Te 东 大 染 男 test 2019-10-29 11.3325 


7412 在 线 国 言 答 安 ie 东 大 释 画 admin 2019-10-28 18.55.20 & ” x 中 


图 10 问答 审核 界面 


aXiv 


.把 学 科 管 理 员 将 问答 审核 人 库 后 , 当 智 能 咨询 系统 | 统 直接 给 出 答案 。 如 图 11 所 示 ; 
再 纶 收 到 用 户 相 同 的 问题 时 , 即 可 由 智能 问答 引擎 


外 ”问答 分 析 


me oo es 


DD 同 9 收 于 


出 同和 棕 计 与 处 理 


骂 。 本 百 处 理 


国 ”知识 席 六 理 
同伴 互助 ke 东 大 集团 2019.10.29 09.35.28 
首页 > 结 梨 


们 学校 餐 厅 对 外 开放 吗 ? 
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图 11 问答 入 库 和 自动 回答 反馈 


133 


图 襄 情 荫 三 作 


第 64 卷 第 18 期 2020 年 9 月 


ChinaXiv 合 作 期 刊 


6 ”图 书馆 智能 咨询 系统 的 运行 情况 


东南 大 学 图 书馆 智能 咨询 系统 自 2019 年 10 月 开 
始 上 线 试用 ,至 2020 年 1 月 累计 运行 3 个 月 ,以 下 通 
过 对 系统 数据 的 统计 ,分 析 使 用 情况 。 
6.1 用 户 使 用 情况 分 析 

智能 咨询 系统 累计 总 访问 量 为 4 634 人 次 ,查询 
4 420 个 问题 。 平 均 日 均 访问 量 约 为 31 人 次 /天 。 设 
定 工 作 时 间 为 8:30 -17: 00 ,其 余 时 间 为 非 工作 时 间 。 

由 图 12 可 见 ,在 非 工作 时 间 访 问 智 能 咨询 系统 
的 用 户 占 总 访问 人 数 的 29.3% ,用 户 咨询 问题 占 总 
咨询 数 的 31.1% ,说 明 东 南大 学 图 书馆 的 用 户 在 非 
工作 时 间 对 图 书馆 信息 咨询 服务 的 需求 也 十 分 明 


~ 

3 

© WO 68.9% 
i 


- ”工作 时 间 
”上 畦 E 工 作 时 间 


问题 咨询 


G ”系统 访问 
之 ”图 12 用 户 使 用 咨询 系统 时 间 分 布 


> 在 咨询 内 容 方面, 关于 信 售 规章 等 常规 问 题 内 容 

的 绩 占 问题 的 51% ,关于 馆藏 书目 的 检索 约 占 36% 。 
与 中 同时 ,使 用 东南 大 学 图 书馆 公众 号 以 及 线 上 工具 
咨 铀 的 人 工 服务 的 回复 数量 有 较 大 的 下 降 , 尤 其 是 对 
图 书馆 常规 问题 的 咨询 。 如 图 13 所 示 : 


其 他 ，15% 


常规 问题 ，51% 


图 13 咨询 内 容 分 布 
综 上 所 述 ,图 书馆 智能 咨询 系统 的 使 用 在 延长 图 
书馆 信息 咨询 服务 时 间 和 降低 馆 员 劳动 量 方面 的 效果 
较为 明显 。 


6.2 图 书馆 智能 咨询 系统 运行 效果 

在 早期 系统 测试 阶段 ,出 现 有 些 同义词 无 匹配 的 
情况 ,经 过 测试 发 现 ,是 由 于 基于 Skip-gram 模型 词 向 
量 的 训练 对 语 料 的 数量 较为 敏感 ,以 及 初始 的 匹配 阅 
值 设 置 过 高 造成 的 。 通 过 降低 阅 值 以 及 语料库 的 累加 
后 ,获得 了 较为 理想 的 匹配 效果 ,同时 应 用 推送 相似 问 
题 链接 的 方法 来 提升 咨询 效果 和 用 户 友好 度 。 以 问题 
“图 书 超期 归还 规则 ”为 例 , 使 用 “我 的 图 书 逾 期 “请 
期 归还 ”“ 超 期 怎么 办 “图 书 过 期 "等 相似 语义 的 问 
题 进 行 咨询 , 均 可 获得 "图书 超期 归还 ”的 相关 图 书馆 
规则 回复 ,同时 将 相似 问题 推送 给 用 户 。 见 图 14。 

在 系统 上 线 运行 过 程 中 , 共 收 到 1 927 个 信息 咨 
询问 题 ,智能 咨询 引擎 自动 回复 了 1 436 个 问题 , 约 为 
74.5% ,有 99 个 没有 回答 的 问题 通过 人 工 服务 的 方式 
进行 了 提交 后 台 处 理 。 相 对 于 图 书馆 目前 使 用 的 基于 
关键 词 的 自动 问答 机 器 人 不 到 50% 的 问题 应 答 率 有 
较 大 水 平 的 提高 。 经 过 对 未 能 自动 回复 问题 的 分 析 ， 
发 现 主 要 原因 是 系统 目前 只 接 和 图 书馆 领域 的 知识 
库 ,而 用 户 咨询 的 问题 超出 范围 所 致 。 随 着 知识 库 内 
容 的 不 断 扩充 ,智能 功能 问答 引擎 的 应 答 率 应 能 够 有 
进一步 的 提升 。 

6.3 维护 与 管理 平台 的 使 用 情况 

在 系统 实际 使 用 中 ,协同 工作 的 效果 较为 理想 , 当 
值班 馆 员 收 到 人 工 服务 请 求 后 ,通过 管理 系统 快速 将 
相关 问题 转发 给 相关 负责 馆 员 处 理 ,减少 了 沟通 的 时 
间 ,在 降低 了 回复 延 时 的 同时 提高 了 回复 质量 。 对 于 
知识 库 的 扩展 方面 ,基于 角色 的 分 级 管理 模式 以 及 人 
库 审核 机 制 的 设立 提高 了 知识 库 入 库 问 题 的 质量 和 安 
全 性 。 


东南 大 学 图 书馆 通过 对 基于 Word2vec 词 向 量 语 
义 扩展 技术 的 研究 和 使 用 ,很 好 地 解决 了 自动 问答 系 
统 在 语义 扩展 方面 存在 的 缺陷 ,实现 了 智能 化 的 图 书 
馆 信息 咨询 系统 。 智 能 咨询 系统 在 延长 咨询 服务 时 
间 、 提 高 咨询 效果 、 降 低 咨询 馆 员 工作 量 和 馆 员 协 同 工 
作 方 面 较 好 地 满足 了 图 书馆 信息 咨询 需求 ,但 也 有 一 
些 不 足 之 处 ,下 一 步 将 从 以 下 3 方面 加 强 系统 建设 : 
中 提供 更 多 种 的 咨询 服务 终端 和 功能 如 接 入 语音 识别 
功能 , 开发 微 信 小 程序 客户 端 ， 接 和 实体 机 器 人 系统 
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图 书馆 智能 咨询 系统 。 


”我 的 图 书 这 期 


图 书馆 智能 咨询 系统 


违规 处 罚 : 外 人 异 图 书记 其 归还 者 ， 须 交纳 资料 洁 
关 占 用 费 : 外 文 图 书 每 册 每 日 0.20 元 ; 中 文 图 书 每 册 
每 日 0.05 元 。 
地 0 中 0 


RD 请 问 如 果 任 的 书 委 了 怎么 处 理 ? 


> 请 问 我 借 的 书 快 要 到 期 ， 需 要 续 异 ， 怎 … 


图 书馆 智能 咨询 系统 。 


: 档期 怎么 办 


违规 处 罚 : 外 们 图 书 迪 期 归还 者 ， 须 交纳 资料 遍 
期 占用 费 : 外 文 图 书 每 册 每 日 0.20 元 ; 中 文 图 书 每 册 


每 日 0.05 元 。 
™ 地 0 起 0 
> 
< 十 > 图 书馆 的 书 能 借 多 少 天 ? 
O) 
© E> 图 书 超期 后 如 何 交 款 
©O 
© 
< 二 


等 > 渤 一 步 提升 用 户 使 用 的 体验 感 。@@ 加 强 系 统 知识 
设 , 可 以 通过 网 络 下 载 或 者 接 人 的 方式 为 智能 问 

答 貂 统 提供 除 图 书馆 领域 以 外 知识 库 的 扩展 ,如 聊天 

赚 总 ,但 与 此 同时 也 要 注意 知识 库 内 容 的 审核 和 管理 。 

@ 病 温 对 人 工 智能 方面 热门 技术 的 研究 ,如 结合 使 用 

深 这 学 习 和 词性 标注 等 技术 来 主动 判断 读者 意图 等 ， 

进 伍 步 提升 图 书馆 咨询 系统 的 智能 化 水 平 。 
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Absiract: | Purpose/ significance | Aiming at the problem of semantic extension in automatic question answering 
system, this paper proposes a semantic extension technology based on word vector, and designs and implements a li- 
brary intelligent consulting system. | Method/process| Using word2vec word vector semantic extension technology, 
Chinese word segmentation and co-occurrence matching technology, an intelligent Q & A engine was designed. Com- 
bined with the concept of collaborative office, the library intelligent consulting system was realized, and the operation 
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